Séminaire INSEE - Pratiques de l’analyse spatiale
vendredi 22 mars 2024
MEAPS : le contexte
Accessibilité: du potentiel à l’espérance des flux
MEAPS pour les flux de navetteurs
Projections : modéliser les détours, les fréquences et les modes
Kilomètres parcourus par les navetteurs
Conclusion
Au départ : articuler la distribution spatiale des résidents et des opportunités
notamment les emplois, mais aussi les écoles, les commerces, les espaces verts
comprendre les prix de l’immobilier et la différence qu’induit l’accessibilité à ces opportunités
Pour aller plus avant, les émissions de CO2 par exemple, il faut passer du potentiel à des flux réalisés (en espérance). C’est cette question qui s’est posée lors d’un travail pour l’agglomération de la Rochelle (sur le périmètre du SCoT La Rochelle Aunis).
définition
On définit l’accessibilité comme : \(s_i(d)=\sum _{j/d_{i,j}<d}\)
C’est le nombre d’opportunités accessibles à une distance inférieure à \(d\) de \(i\). La distance peut être à vol d’oiseau, en temps de trajet, en coût généralisé de transport. L’opportunité peut être une métrique plus ou moins complexe (nombre d’emplois, corrigés de la qualité, corrigé de la diversité, …) . On peut « écraser » la dimension des opportunités à l’arrivée (opportunité synthétique pour un ménage ou un individu particulier) ou à l’origine (emploi moyen recherché)
Parodi et Timbeau (2023) : description du modèle théorique, discussion du modèle gravitaire, analyse des propriétés de MEAPS
Parodi et Timbeau (2024b) : estimation de MEAPS et comparaison avec le modèle gravitaire. discussion de la stratégie d’estimation
Parodi et Timbeau (2024a) : analyse du lien entre densité et émission et construction de modèles pour les fréquences, les détours et les modes de transport
un site https://preview.meaps.fr sur lequel vous trouverez les documents de travail et les liens vers les dépôts .
MEAPS : le contexte
Accessibilité: du potentiel à l’espérance des flux
MEAPS pour les flux de navetteurs
Projections : modéliser les détours, les fréquences et les modes
Kilomètres parcourus par les navetteurs
Conclusion
Individus : données carroyées INSEE c200m 2017 et 2019
Emplois : MOBPRO (recensement fichier détail) 2019 imputés par commune et par secteur NAF 5 en fonction des surfaces professionnelles issues des fichiers fonciers et du RFP
Comment produire cette carte ?
Du tenseur \([km^m_{ijk}]\) on peut alors calculer l’espérance des kilomètres par carreau \(km_{ij}\), pour une catégorie particulière \(km_{k}\), pour un mode spécifique \(km^k\), etc…
MEAPS : le contexte
Accessibilité: du potentiel à l’espérance des flux
MEAPS pour les flux de navetteurs
Projections : modéliser les détours, les fréquences et les modes
Kilomètres parcourus par les navetteurs
Conclusion
Théoriquement MEAPS décrit un processus d’appariement spatialisé explicite et vraisemblable. La saturation permet un appariement complet [ce qui n’est pas le cas pour gravitaire].
Empiriquement, il faut utiliser un modèle de Poisson ou une fonction objectif entropie relative de Kullback-Leibler pour estimer un modèle de flux (MEAPS ou gravitaire).
Empiriquement, MEAPS 0p. peut servir de modèle de référence. En introduisant des odds ratios, on peut paramètrer MEAPS pour représenter une préférence locale (par ex.).
Empiriquement, le modèle gravitaire quant à lui repose sur des effets fixes ou une procédure de Furness pour fonctionner. Mais on triche avec les masses alors que les masses sont l’argument principal.
Empiriquement, avec seulement 2 ou 3 paramètres, on arrive à expliquer (presque) aussi bien avec MEAPS qu’avec un gravitaire à effets fixes ou Furness
Hors échantillon, on peut reproduire les flux avec seulement la localisation de l’emploi et des résidents
En ajoutant une information infra-communale, on améliore la capacité de MEAPS à repduire les flux, mieux qu’un gravitaire saturé.
On part d’une analogie radiative plutôt que gravitaire : le milieu traversé compte (stouffer1940? ; simini2012? ; Simini, Maritan, et Néda 2013)
absorption : Chaque individu part de \(i\) et rencontre les opportunités \(j\) classées dans l’ordre des distances. A chaque rencontre il a une probabilité \(p_i\)d’être absorbé. Le voisinage compte, puisque si je traverse un milieu dense en opportunités je vais moins loin
saturation : Chaque fois qu’un individu est absorbé, l’opportunité est diminuée. Il y a concurrence entre les individus pour accéder aux opportunités. A nouveau le voisinage compte : si je suis dans un milieu dense en individus je dois aller plus loin
priorité : la saturation est résolue en donnant la priorité au premier arrivé. On donne un ordre aux individus et on détermine leur absorption en fonction de 1. et de 2. dans l’ordre de priorité
ergodicité : on tire un grand nombre d’ordres aléatoirement, en répétant 1 2 et 3 pour obtenir en moyenne une allocation indépendante de l’ordre arbitraire, ce qui achève la prise en compte du voisinage
Par construction ce modèle respecte le principe de séparabilité. La saturation permet en outre d’assurer que chaque individu occupe un emploi et que chaque emploi est occupé si les opportunités sont toutes accessibles à tous les individus.
Le modèle gravitaire dans sa forme générale :
\[ f_{ij} =c\times \frac{n_i^\alpha \times e_j ^\beta }{d_{ij}^\delta } \]
est un modèle qui ne tient pas compte du voisinage : le flux est généré par une masse au départ, une autre à l’arrivée mais l’entourage n’intervient pas (fotheringham1983? ; simini2012? ; stouffer1940?).
On peut définir une notion de séparabilité qui n’est respectée à l’origine que si \(\alpha=1\) et à la destination si \(\beta=1\) : si on divise un groupe au même point \(ij\) en deux sous groupes, on veut que la somme de flux générés par les deux sous groupes soit exactement le flux généré par le groupe entier si ils ont les mêmes paramètres (de comportement). De la même façon, si on sépare un groupe d’individus ou d’emplois très proches en des sous groupes à une résolution plus élevée on veut que le changement de résolution n’est qu’un impact faible sur les flux modélisés (à la limite nul).
On estime le modèle gravitaire par cette équation en supposant un processus générateur log normal Lenormand, Bassolas, et Ramasco (2016) :
\[ log(f_{ij}) = \alpha \times log(n_i) + \beta \times log(e_j) - \delta \times d_{ij} + c + \varepsilon_{ij} \;\;;\; \;\varepsilon_{ij} \sim \mathcal{N}(0, \sigma^2) \]
C’est une mauvaise façon de faire (Flowerdew et Aitkin 1982) parce que le processus générateur est celui d’un Poisson (comptage) :
\[ P(\hat f_{ij}= f_{ij}) = \frac{e^{-\hat f_{ij}}\times \hat f_{ij}^{f_{ij}}}{f_{ij}!} \;et\; log(\hat f_{ij}) = \alpha \times log(n_i) + \beta \times log(e_j) - \delta \times d_{ij} +c \]
ou, la comparaison de deux densités doit se faire par l’entropie relative de Kullback-Leibler (kullback1951?). La log vraisemblance d’une table de contingence s’écrit :
\[ \mathcal L = \sum_{ij} f_{ij} log(\hat f_{ij} /n) \] au lieu de l’ajustement usuel par les MCO (on peut s’en approcher par des MCO pondérés par \(f_{ij}\) (Agresti 2002, pp.146‑148).
Reste que les estimations ne s’arrêtent pas là : on dispose généralement d’une information que l’on veut utiliser (ou respecter). On connait les \(n_i\) et le \(e_i\). L’estimation par Poisson ou par résidu log normaux ne permet pas le respect de cette information. On ajoute donc généralement des effets fixes ou aléatoires (suivant l’hypothèse que l’on pose pour la projection par exemple) :
\[log(\hat f_{ij}) = \alpha \times log(n_i) + \beta \times log(e_j) - \delta \times log(d_{ij}) + log(a_i) + log(b_j) \]
Dans ce cas le modèle, ne permet pas d’identifier \(\alpha\) ou \(\beta\) – on les pose à 1 pour respecter le principe de séparabilité.
On peut également utiliser une procédure de Furness (itérative, puis estimation non linéaire, on montre que \(\alpha=\beta=1\) ) :
\[ a_i = \frac{n_i}{\sum_j {{b_j n_i ^ \alpha e_j ^ \beta} / { d_{ij}^{\delta} }}} = \frac{n_i ^ {1-\alpha}}{\sum_j { b_j e_j ^ \beta / d_{ij}^{\delta} }} \]
\[ b_j = \frac{e_j}{\sum_i { {a_i n_i ^ \alpha e_j ^ \beta} / { d_{ij}^{\delta} }}} = \frac{e_j ^ {1-\beta}}{\sum_i {a_i n_i ^ \alpha / d_{ij}^{\delta} }} \]
MEAPS est un modèle sans paramètre (comme simini2012?). On peut ajouter des paramètres dans le modèle :
\[ \tilde{p}_{abs,ij} = \frac{c_{abs} \times \omicron_{ij}} {1+c_{abs} \times \omicron_{ij}} \]
Puis en définissant une structure \(O\) sur les \(\omicron_{ij}\) si on ne veut pas d’un modèle saturé (\(\mathcal{L}\) est bien sûr l’entropie relative KL ;)).
\[ \hat \theta = \underset{\theta}{\mathrm{argmin}} \, \mathcal{L}(f^{meaps}_{ij}(O(d_{ij},\theta))) \]
| Modèle | Paramètres | Métriques | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| méthode | p | DL | δ | α | β | R2KLu | R2KLi | R2dev | ||
| 1 | Gravitaire | mco | 4 | 2003 | 0.478*** |
0.297*** |
0.399*** |
62.3% | −42.9% | 44.6% |
| 2 | Gravitaire (contraint) | mco | 2 | 2005 | 0.5*** |
1 |
1 |
79.0% | 20.5% | 6.3% |
| 3 | Gravitaire (FE) | mco | 255 | 1752 | 0.974*** |
1 |
1 |
88.7% | 57.1% | 79.0% |
| 4 | Gravitaire (pondéré) | mco | 4 | 2003 | 0.933*** |
0.688*** |
0.638*** |
86.0% | 46.8% | 91.3% |
| 5 | Gravitaire (pondéré contraint) | mco | 2 | 2005 | 0.647*** |
1 |
1 |
79.0% | 20.3% | 20.0% |
| 6 | Gravitaire (pondéré, FE) | mco | 255 | 1752 | 1.32*** |
1 |
1 |
94.1% | 77.6% | 89.4% |
| 7 | Gravitaire (poisson) | glm poisson | 4 | 2003 | 0.93*** |
0.688*** |
0.761*** |
87.1% | 51.2% | 87.1% |
| 8 | Gravitaire (poisson contraint) | glm poisson | 2 | 2005 | 0.558*** |
1 |
1 |
79.1% | 20.7% | 20.4% |
| 9 | Gravitaire (poisson, FE) | glm poisson | 255 | 1752 | 1.36*** |
1 |
1 |
94.5% | 79.4% | 79.3% |
| Modèle | Paramètres | Métriques | |||||||
|---|---|---|---|---|---|---|---|---|---|
| objectif | p | DL | δ | α | β | R2KLu | R2KLi | ||
| 1 | Grav. (ligne) | KL |
3 | 1932 | 1.16*** |
1 |
0.784*** |
90.0% | 62.1% |
| 2 | Grav. (ligne) | R2w |
3 | 1932 | 1.05*** |
1 |
0.685*** |
89.2% | 59.2% |
| 3 | Grav. (furness, l&c) | KL |
1 | 1752 | 1.36*** |
1 |
1 |
94.5% | 79.3% |
| 4 | Grav. (furness, l&c) | R2w |
1 | 1752 | 1.34*** |
1 |
1 |
94.5% | 79.3% |
| Modèle | Paramètres | Métriques | ||||||
|---|---|---|---|---|---|---|---|---|
| objectif | p | DL | p1 | p2 | R2KLu | R2KLi | ||
| 1 | MEAPS 0p. | - |
0 | 1753 | - |
- |
82.0% | 51.6% |
| 2 | MEAPS (diag) | KL |
1 | 1752 | 1.06*** |
- |
88.4% | 56.0% |
| 3 | MEAPS (diag&densité) | KL |
2 | 1751 | 1.17*** |
0.649*** |
88.4% | 56.0% |
| 4 | MEAPS (diag&voisin) | KL |
2 | 1751 | 1.06*** |
0.962*** |
88.4% | 56.0% |
| 5 | MEAPS (exp. decay) | KL |
2 | 1751 | 3.37*** |
0.0567*** |
91.4% | 67.4% |
| 6 | MEAPS (lin. decay) | KL |
2 | 1751 | 14*** |
2.75*** |
91.9% | 69.4% |
En intégrant les informations infracommunales, en simulant MEAPS, en agrégeant au niveau communal, on produit une meilleure estimation :
| RKL2 | Degrés de liberté | Paramètres | |
|---|---|---|---|
| Référence | 88.4% | 1 752 | |
| 1. Commune vers commune | 93.0% | 1 751 | NA |
| 2. Commune vers commune et voisines | 93.1% | 1 750 | od≈4.3 |
| 3. Distance carreau 200m | 94.1% | 1 750 | dc≈ 9 min |
| 4. Gravitaire sans Furness | 82.6% | 1 961 | δ≈20 min |
| 5. Gravitaire avec Furness | 90.7% | 1 751 | δ≈17 min |
| Le nombre de degrés de liberté est le nombre de paires de flux non nuls dans MOBPRO, moins les contraintes en ligne et en colonne, plus un puisqu’elles sont redondantes moins le nombre de paramètres estimés. Les unités sont des minutes de trajet pour les paramètres homogènes à une distance et sans unité pour les odd-ratios. | |||
MEAPS : le contexte
Accessibilité: du potentiel à l’espérance des flux
MEAPS pour les flux de navetteurs
Projections : modéliser les détours, les fréquences et les modes
Kilomètres parcourus par les navetteurs
Conclusion
\[ logit(Prob^{simple}_k) = \alpha + \beta \times typmen_k +\varepsilon_k \\ avec \varepsilon_k \sim Binomial \]
En utilisant L’EMP 2019, on repère les boucles simples (trajet domicile travail puis retour).
| (1) | |
|---|---|
| Constante | 1.468 (0.134)*** |
| Monoparent | -0.037 (0.213) |
| Couple sans enfant | 0.429 (0.182)* |
| Couple avec enfant(s) | 0.000 (0.151) |
| Autres | 0.593 (0.388) |
| Num.Obs. | 2589 |
| AIC | 2414.0 |
| BIC | 2443.3 |
| Log.Lik. | -1202.012 |
| RMSE | 0.38 |
Pour une distance \(d\) domicile travail, la longueur de la boucle est \(L = K \times d\). En posant \(\gamma\) la proportion de détours rapportée à la distance domicile travail on a \(\gamma = K - 2\). On fait une régression par quantile :
\[ log(\gamma_l) = \alpha + \beta \times log(1 + d_l) + \varepsilon_l \\ avec\ \varepsilon_l \sim \mathcal{N} \\ en\ minimisant \sum_l \left\lvert{\varepsilon_l}\right\lvert \]
En utilisant L’EMP 2019, on repère pour les boucles complexes où le premier ou le dernier trajet est entre le domicile et le travail la longueur de la boucle et la distance domicile travail (boucles B ou D). On mesure alors \(\gamma\).
| Coefficient | >5% | <95% | tau | |
|---|---|---|---|---|
| (Intercept) | 1.68 | 1.23 | 2.03 | 0.50 |
| log(distance + 1) | −1.07 | −1.33 | −0.85 | 0.50 |
On modélise les boucles par un modèle de Poisson augmenté pour la sous-dispersion Conway-Maxwell-Poisson (Conway1962?)
\[ P(x=n|\lambda,\nu) = \frac{\lambda^n}{Z(\lambda, \nu) \times (n!)^\nu} \quad pour\ n=0,1,2... \]
avec l’équation suivante :
\[ log(nb^{bcl}_k) = \alpha + \gamma \times log(L^{bcl}_k) + \delta \times dens_{res, k} + \tau \times voiture_k + \varepsilon_k \\avec \\ \varepsilon_k \sim CMP(\lambda, \nu) \]
En utlisant l’EMP 2019, on compte par individu le nombre de boucles.
| CMP | |
|---|---|
| (Intercept) | 0.272 (0.074)*** <0.001 |
| log(distance) | -0.237 (0.011)*** <0.001 |
| Commune assez dense | -0.022 (0.038) 0.572 |
| Commune peu dense | 0.082 (0.034)* 0.018 |
| A une voiture | 0.211 (0.071)** 0.003 |
| Num.Obs. | 4307 |
| AIC | 8869.5 |
| BIC | 8907.7 |
| Log.Lik. | -4428.767 |
On suit (mcfadden1974d?) en estimant un Random Utility Model
\[ U_l^m = \alpha_m + \beta \times tt_{bcl,m} + \gamma_m \times log(L_{bcl}) + \delta_m \times log(NdV_l) \\ \lambda_m \times dens_l + \mu_m \times typmen_l + \nu_m \times voiture_l + \varepsilon_{m,l} \\ avec\ \varepsilon_{m,l} \sim Loi\ de\ Gumbel \]
La source est l’EMP 2019. On n’utilïse pas le recensement qui interroge sur le mode habituel [on pourrait vérifier quand même].
MEAPS : le contexte
Accessibilité: du potentiel à l’espérance des flux
MEAPS pour les flux de navetteurs
Projections : modéliser les détours, les fréquences et les modes
Kilomètres parcourus par les navetteurs
Conclusion
En regardant finement la distribution spatiale des individus on s’affranchit du problème de l’autosélection.
MEAPS : le contexte
Accessibilité: du potentiel à l’espérance des flux
MEAPS pour les flux de navetteurs
Projections : modéliser les détours, les fréquences et les modes
Kilomètres parcourus par les navetteurs
Conclusion
On combine des sources de données :
La localisation des résidents au carreau 200m (données carroyées INSEE 2019)
La localisation des emplois au carreau 200m (recensement fichier détail MOBPRO + fichiers fonciers + RFP, 5 secteurs)
Les réseaux de transport pour calculer les distances et les temps de parcours par mode entre chaque paire
les flux inter communaux (recensement fichier détail MOBPRO) pour ajuster le modèle de flux infra communal
l’enquête EMP 2019 pour évaluer la longueur des boucles, leur complexité et leur fréquence
l’enquête EMP 2019 pour évaluer les modes
On modélise les flux, les fréquences, les détours, les modes sans agréger les individus spatialement, avec des propriétés pertinentes et explicites.
Sur ces sources ouvertes (ou presque), nous proposons une approche en open source afin d’assurer la transparence et la reproductibilité.
On obtient un modèle calibré qui peut être utilisé avec une certaine confiance pour intrapoler, interpoler, analyser la géographie (localisations, réseaux) et faire des analyses de scénarios
Utiliser les données enrichies par le SDES sur les émissions dans l’EMP 2019
Introduire des dépendances entre les termes de l’équation fondamentale : par exemple, les flux différenciés par ménages, par catégories d’emploi, par mode
Inclure la congestion dans les calculs de temps de parcours en voiture (par ex. données Mapbox sur le trafic usuel, données de flotte potentiellement) ou le temps de transport effectif moyen (GTFS temps réel disponible pour certaines agglomérations).
D’autres structures dans les odds de MEAPS, des processus stochastiques non binomiaux
Affiner les catégories de ménages, celles d’emploi
Exploiter la tension sur l’emploi
Actuellement, nous travaillons sur la métropole d’Aix-Marseille-Provence. C’est un passage à l’échelle significatif : La matrice de flux de la Rochelle est 5000 \(\times\) 5000 \(\approx\) 25M. Celle de Marseille est de 26000 \(\times\) 38000 \(\approx\) 1G, soit 40 fois plus grande. On calcule par exemple les paires origines destination à une vitesse entre 5000 et 1000 paires/s/vCPU.
Un des enjeux est calculer l’espérance pour les autres motifs que le motif professionnel.
mobilités scolaires : recensement fichier détail plus ensemble d’opportunité plus simple, pas de saturation
mobilités pour le commerce : pas de source origine destination, ensemble d’opportunités très large, très divers. Nous explorons l’EMC2 AMP pour une estimation en construisant une couche commerce synthétique (un motif agrégé, pondéré par les usages) et en ayant des matrices O/D partielles.
mobilités pour les autres motifs (santé, démarches, loisir, socialisation) : pas de source origine destination, si ce n’est L’EMC2. Motifs encore plus divers que pour les commerces. Exploration d’une couche synthétique construite sur la population avec une estimation des matrices O/D partielles.
L’utilisation d’autres données comme celles de (lévy2023?) (bornage de téléphone, qui permettent des matrices o/d à la résolution de l’IRIS). Un projet ANR est en cours (de candidature) pour collaborer avec Lévy et Coldefy sur cette question (Digitalisation et décarbonation des mobilités - MOBIDEC).
La future chaire Dynamiques Urbaines a pour objet d’accueillir ces travaux et de centraliser les ressources (dont les données de mobilité).
D’autres traces numériques peut éventuellement permettre d’affiner un ou plusieurs des modèles employés (notamment MEAPS) et de les confronter à des résolutions infra-communales.
L’utilisation de Fidéli sur le CASD permet d’avoir une information fine (revenu, structure familiale au carreau 200m) qui fournirait une source importante pour la projection et la pondération des kilomètres. Il y a également la possibilité d’un début d’analyse temporelle. Mais les règles actuelles de préservation de l’anonymat empêchent de produire et de publier une information dérivée au carreau 200m à partir de ces données.
MEAPS à la Rochelle Parodi&Timbeau